Le Problème
Le défi : Remplir les vides d'une matrice géante et clairsemée.
Étape 1 : Trouver les Similitudes
Pearson (Tendances)
Mesure si 2 utilisateurs varient de la même façon. +1 (Jumeaux), -1 (Opposés).
Cosinus (Angle)
Angle entre deux vecteurs de notes. Si l'angle est nul, goûts identiques.
Jaccard (Ensemble)
Pourcentage d'éléments communs (ex: films vus par les deux).
Étape 2 : Filtrage Collaboratif
Deux approches pour deviner votre note r̂u,i.
User-Based
« Dis-moi qui sont tes amis... »
Pondère les notes des voisins similaires.
Item-Based
« Si tu aimes Toy Story... »
Utilise la similarité entre les films.
Le Cœur : Factorisation Matricielle
Découvrir les Facteurs Latents
Au lieu de noter directement, on décrit utilisateurs et films par des caractéristiques cachées (Action, Comédie, etc.). La grosse matrice se brise en deux matrices fines (P et Q).
- r̂ui Note prédite
- μ Moyenne globale
- bu Biais utilisateur (critique/généreux)
- bi Biais item (popularité du film)
- qi Profil du film
- pu Profil de l'utilisateur
Comment l'IA Apprend
Descente de Gradient Stochastique
Minimiser l'erreur entre la vraie note rui et la prédiction r̂ui.
- Calculer l'erreur : eui = rui - r̂ui
- Corriger les profils d'un petit pas (γ) dans la direction opposée.
- Répéter !
Empêche le modèle de tricher ou de faire du surapprentissage.
Le Bulletin de Notes
Est-ce que la prédiction est bonne ?
RMSE
- Pénalise fortement les "catastrophes".
- Idéal pour éviter les pires recommandations.
MAE
- Mesure l'erreur moyenne réelle.
- N'exagère pas les grands écarts.